iT邦幫忙

2023 iThome 鐵人賽

DAY 20
0
AI & Data

圍繞 AI & Data 的主題系列 第 20

[Day 20] 監督學習 (Supervised Learning)

  • 分享至 

  • xImage
  •  

Hello 大家好!歡迎回來!昨天剛剛分享完深度強化學習 (Deep Reinforcement Learning),那今天我打算跟大家分享監督學習 (Supervised Learning)。事不宜遲,現在開始!

簡介

監督式學習是機器學習中的一種基本方法,它使計算機能夠從標記資料中學習並進行準確的預測或分類。通過利用由輸入-輸出對組成的訓練數據集,監督式學習算法可以推廣模式和關係,從而對未見數據進行預測。

監督式學習算法

之前已經介紹過一些了,那我們就快速帶過吧。

  • 線性回歸
    線性回歸是廣泛應用於回歸任務的監督式學習算法,其目標是根據輸入特徵預測連續值。
  • 邏輯回歸
    邏輯回歸是用於二元或多類別分類任務的監督式學習算法,提供每個類別標籤的概率。
  • 決策樹
    決策樹是多用途的監督式學習算法,根據 if-then 規則將特徵空間劃分為區域,以進行預測。
  • 支持向量機 (SVM)
    SVM 是一種強大的監督式學習算法,它找到一個最優超平面來分離不同類別的數據點。

評估和模型選擇

  • 訓練和測試
    監督式學習模型通過將數據集劃分為訓練集和測試集來進行評估,評估其在未見數據上的性能。
  • 性能指標
    使用各種指標 (如準確率、精確度、召回率和 F1 分數) 來評估監督式學習模型的性能。
  • 交叉驗證
    交叉驗證技術,包括 k-fold 交叉驗證,有助於估計模型在不同數據子集上的性能。

應用

  • 圖像分類
    監督式學習在圖像分類任務中取得了成功應用,使計算機能夠準確分類圖像中的物體和場景。
    https://ithelp.ithome.com.tw/upload/images/20231002/20163226jEs5fl9NV6.png [1]
  • 情感分析
    通過在標記的文本資料上進行訓練,監督式學習模型可以進行情感分析,識別文本資料中的正面或負面情感。
  • 欺詐檢測
    監督式學習算法在欺詐檢測系統中得到應用,根據歷史模式和標記的欺詐資料識別欺詐交易。
  • 醫學診斷
    監督式學習在醫學診斷中起著關鍵作用,模型通過在標記的醫學資料上進行訓練,識別疾病並協助決策。

挑戰和未來發展方向

  • 有限的標記資料
    監督式學習在很大程度上依賴於標記資料,而獲取大型高質量的標記數據集可能既昂貴又耗時。
    標註需要時間與金錢。以標註成本最低的圖像分類為例,圖像分類 Open Source 數據集 ImageNet 包含 1,281,167 的訓練集 +50,000 的驗證集。如果尋求外部的數據標註公司,分類任務都是以張數計價;越困難的任務標註成本也越大,例如目標檢測的估價大多是以標註框來計算,在同樣的圖片量級會比分類任務貴出好幾倍。
  • 過擬合和欠擬合
    平衡模型的複雜性以避免過擬合 (高變異) 或欠擬合 (高偏差) 是監督式學習中的一個關鍵挑戰。
  • 可解釋性
    隨著模型變得越來越複雜,理解和解釋其決策對於信任和透明度變得越來越重要。
  • 半監督學習和主動學習(明天+後天我們將會説到)
    利用標記和未標記資料,以及主動選擇信息豐富的樣本進行標記的方法,是目前的研究領域。

參考資料

我是 Mr. cobble,明天見!


上一篇
[Day 19] 深度強化學習 (Deep Reinforcement Learning)
下一篇
[Day 21] 半監督學習 (Semi-Supervised Learning)
系列文
圍繞 AI & Data 的主題30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言